Search CORE

188 research outputs found

La ruée linguistique vers le Web

Author: Tanguy Ludovic
Publication venue: Institut Ferdinand de Saussure
Publication date: 01/01/2013
Field of study

International audienceThis paper presents an overview of the linguists' use of the Web as a corpus. Across several experiments, it exposes both methodological and technical aspects, while explaining the difficulties encountered. Focusing on past work on extensive morphology, I discuss the particular status of this source of textual data. One important point is related to the difficulties posed by web search engines, and how we must constantly evolve our approach in order to continue using the Web as an elusive source of useful data.Cet article propose un panorama des usages du Web en linguistique de corpus. A travers une présentation de différents travaux, il aborde les considérations méthodologiques et techniques, en mettant en avant les difficultés que rencontrent les linguistes face à cette source particulière de données langagières. En prenant exemple sur des travaux menés sur l'acquisition de données en morphologie extensive, je discute le statut des données, ainsi que de la position peu confortable dans laquelle les moteurs de recherche placent les chercheurs, et la façon dont ils doivent en permanence s'adapter à un matériau irremplaçable mais difficile d'accès

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Similarité de second ordre pour l'exploration de bases textuelles multilingues

Author: Tanguy Ludovic
Tulechki Nikola
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceThis paper describes the use of second order similarities for identifying similar texts inside a corpus of aviation incident reports written in both French and English. We use a second bilingual corpus to construct pairs of reference documents and map each target document to a vector so each coordinate represents a similarity score between this document and the part of the reference corpus written in the same language. We evaluate the system using a large corpus of translated incident reports. The results are promising and validate the approach.Cet article décrit l'utilisation de la technique de similarité de second ordre pour l'identification de textes semblables au sein d'une base de rapports d'incidents aéronautiques mélangeant les langues française et anglaise. L'objectif du système est, pour un document donné, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligné de rapports d'accidents aéronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarités, tels que chaque coordonnée correspond au score de similarité entre un document dans une langue donnée et la partie du pivot de la même langue. Nous évaluons les performances du système sur un volumineux corpus de rapports d'incidents aéronautiques pour lesquels nous disposons de traductions. Les résultats sont prometteurs et valident la technique

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

WEBAFFIX : une boîte à outils d'acquisition lexicale à partir du Web

Author: Hathout Nabil
Tanguy Ludovic
Publication venue: 'Universite du Quebec a Montreal - Departement de Didactique'
Publication date: 01/01/2005
Field of study

International audienceThis paper deals with the design and use of Webaffix, a tool for semi-automatically detecting new word forms from the World Wide Web. We focus mainly on new derived words, i.e. coined from other lexemes through suffixation and/or prefixation processes. We develop the techniques and methods used in Webaffix, along with a sample of results obtained via several studies on French. Resources such as the ones created through the use of Webaffix are useful not only for natural language processing and information retrieval tasks, but also for the linguistic study of word creation.Nous présentons ici Webaffix, un outil et une méthodologie qui permet d'enrichir et de constituer semi-automatiquement des données lexicales en utilisant le Web comme corpus. Notre approche concerne plus spécifiquement la détection et l'analyse d'unités lexicales construites par suffixation ou préfixation. Nous présentons les méthodes et techniques utilisées par Webaffix, en déclinant les différents modes d'utilisation que nous avons envisagés et mis en pratique, ainsi que des exemples de résultats produits par diverses campagnes d'utilisation. Les données ainsi recueillies sont utiles comme ressources pour différentes applications en traitement automatique des langues, mais permettent également d'étudier à grande échelle les phénomènes de création lexicale

Crossref

Scientific Publications of the University of Toulouse II Le Mirail

Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques

Author: Tanguy Ludovic
Tulechki Nikola
Publication venue: HAL CCSD
Publication date: 01/01/2012
Field of study

International audienceIn this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.Cet article étudie le lien entre la similarité textuelle et une classification extrinsèque dans des collections de rapports d'incidents aéronautiques. Nous cherchons à compléter les stratégies d'analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu'ils ne reflètent pas l'organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

L'apport du faisceau dans l'analyse syntaxique en dépendances par transitions : études de cas avec l'analyseur Talismane

Author: Tanguy Ludovic
Urieli Assaf
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceTransition-based dependency parsing often uses deterministic techniques, where each parse step provides a single solution as the input to the next step. The same is true for the entire analysis chain which transforms raw text into a dependency graph, generally composed of four modules (sentence detection, tokenising, pos-tagging and parsing): each module provides only a single solution to the following module. However, some ambiguities cannot be resolved without taking the next level into consideration. In this article, we present Talismane, an open-source suite of tools providing a complete statistical parser of French. More specifically, we study the contribution of a beam search to syntax parsing. Our analysis allows us to conclude on the most appropriate beam width (enabling us to attain an accuracy of 88.5%, slightly higher than comparable tools), and on the best strategies concerning beam propagation from one level of analysis to the next.L'analyse syntaxique (ou parsing) en dépendances par transitions se fait souvent de façon déterministe, où chaque étape du parsing propose une seule solution comme entrée de l'étape suivante. Il en va de même pour la chaîne complète d'analyse qui transforme un texte brut en graphe de dépendances, généralement décomposé en quatre modules (segmentation en phrases, en mots, étiquetage et parsing) : chaque module ne fournit qu'une seule solution au module suivant. On sait cependant que certaines ambiguïtés ne peuvent pas être levées sans prendre en considération le niveau supérieur. Dans cet article, nous présentons l'analyseur Talismane, outil libre et complet d'analyse syntaxique probabiliste du français, et nous étudions plus précisément l'apport d'une recherche par faisceau (beam search) à l'analyse syntaxique. Les résultats nous permettent à la fois de dégager la taille de faisceau la plus adaptée (qui permet d'atteindre un score de 88,5 % d'exactitude, légèrement supérieur aux outils comparables), ainsi que les meilleures stratégies concernant sa propagation

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Linguistic Analysis of Users' Queries: towards an adaptive Information Retrieval System

Author: Mothe Josiane
Tanguy Ludovic
Publication venue: HAL CCSD
Publication date: 01/01/2007
Field of study

International audienceMost of Information Retrieval Systems transform natural language users'queries into bags of words that are matched to documents also represented as bags of words. Through such process, the richness of the query is lost. In this paper we show that linguistic features of a query are good indicators to predict systems failure to answer it. The experiments are based on 42 systems or system variants and 50 TREC topics that consist of a descriptive part expressed in natural language

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Risque et TAL : détection, prévention, gestion. Introduction au 1 er atelier

Author: Grabar Natalia
Tanguy Ludovic
Publication venue: HAL CCSD
Publication date: 01/01/2016
Field of study

International audienceThis article is the introduction to the first workshop dedicated to Risk and NLP, addressing theuse of natural language processing methods for the detection, prevention and management of risk.The papers presented during the workshop come from both academic and industrial actors. Theycover the most risk-prone domain such as biomedicine (medicine and pharmacology), chemistryand transportation, but also address more transversal issues of human activity such as professionalenvironments and technical documentation and requirements. The works presented also show thevariety of the processed data (intervention reports, social network communications, academic papers,surveys, technical documentation), the objectives of the analyses (extraction of information relatedto the risk, ambiguity control, documentation checking), and of technical solutions (data collection,corpus analysis, resources development).Nous présentons ici le premier atelier Risque et TAL portant sur les méthodes de traitement automa-tiques des langues pour la détection, la prévention et la gestion des risques. Les travaux présentés dans le cadre de cet atelier sont issus de travaux académiques mais aussi d'applications développées par des acteurs industriels. Ils couvrent les principaux domaines pour lesquels la notion de risque est au centre de préoccupations de par l'ampleur des conséquences à éviter : biomédical (médecine et pharmacologie), chimie et transports, mais abordent aussi des aspects plus transversaux de l'activité humaine, comme les environnements professionnels et les spécifications. Ces différents travaux montrent à la fois la diversité des données visées (retours d'expérience, réseaux sociaux, publications scientifiques, enquêtes, documentation technique), les objectifs des analyses (extraire de l'information liée aux risques, contrôler ou vérifier les ambiguïtés) et les solutions techniques (recueil de données, analyse de corpus, développement de ressources)

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Parcours interprétatifs (inter) textuels dans le cadre d'une assistance informatique

Author: Tanguy Ludovic
Thlivitis Théodore
Publication venue: Montpellier : Presses universitaires de la Méditerranée, 2006-
Publication date: 01/01/2000
Field of study

International audienceIn this paper, we propose some means of dealing with the interpretation of textual andintertextual spaces under the loose control of a computer program. While keeping the reader’ssubjectivity as a central point, we give guidelines and formal tools to semi-automatically build andfurthermore share an interpretation of a corpus.Cet article se propose d'aborder quelques notions de textualité et d'intertextualité sous le biais d'une assistance informatique à un acte interprétatif d'un texte ou d'un corpus. Nous y présentons comment une lecture peut, dans sa subjectivité, être accompagnée et motivée par un protocole informatisé, et proposer par là un nouveau mode d'exploration sémantique de corpus. Title : Computer-aided interpretation of texts and intertexts Abstract : In this paper, we propose some means of dealing with the interpretation of textual and intertextual spaces under the loose control of a computer program. While keeping the reader's subjectivity as a central point, we give guidelines and formal tools to semi-automatically build and furthermore share an interpretation of a corpus

Scientific Publications of the University of Toulouse II Le Mirail

Hal-Diderot

Webaffix: Discovering Morphological Links on the WWW

Author: Hathout Nabil
Tanguy Ludovic
Publication venue: HAL CCSD
Publication date: 01/01/2002
Field of study

International audienceThis paper presents a new language-independent method for finding morphological links between newly appeared words (i.e. absent from reference word lists). Using the WWW as a corpus, the Webaffix tool detects the occurrences of new derived lexemes based on a given suffix, proposes a base lexeme following a standard scheme (such as noun-verb), and then performs a compatibility test on the word pairs produced, using the Web again, but as a source of cooccurrences. The resulting pairs of words are used to build generic morphological databases useful for a number of NLP tasks. We develop and comment an example use of Webaffix to find new noun/verb pairs in French

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Webaffix : une boîte à outils d’acquisition lexicale à partir du Web

Author: Hathout Nabil
Tanguy Ludovic
Publication venue: 'Consortium Erudit'
Publication date: 01/01/2003
Field of study

Nous présentons ici Webaffix, un outil qui permet de constituer et d’enrichir semi-automatiquement des données lexicales en utilisant le Web comme corpus. Il permet de détecter et d’analyser morphologiquement des unités lexicales nouvelles (c’est-à-dire absentes de listes de référence telles que les dictionnaires) construites par suffixation ou préfixation. Nous présentons les techniques utilisées par Webaffix, en déclinant les différents modes d’utilisation que nous avons envisagés et mis en pratique, ainsi que des exemples de résultats produits par diverses campagnes de collecte. Les données ainsi recueillies constituent des ressources lexicales pour différentes applications en traitement automatique des langues, mais également pour l’étude à grande échelle de la morphologie dérivationnelle.This paper deals with the design and use of Webaffix, a tool for semi-automatically detecting new word forms from the World Wide Web. We focus mainly on new derived words, i.e. coined from other lexemes through suffixation and/or prefixation processes. We develop the techniques and methods used in Webaffix, along with a sample of results obtained via several studies on French. Resources such as the ones created through the use of Webaffix are useful not only for natural language processing and information retrieval tasks, but also for the linguistic study of word creation

Érudit